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摘要 


认 知 科学 研究 认为 ， 文 本 在 被 逻辑 处 理 之 前 ， 首 先 会 形成 一 种 下 意识 理解 。 
而 这 种 下 意识 理解 的 “概念 域 ” 基 于 我 们 所 处 的 社会 文化 环境 而 产生 。 

文本 传达 的 下 意识 情绪 是 表达 中 的 重要 组 成 部 分 ， 在 文学 写作 、 政 治 宣传 、 
心理 治疗 等 领域 有 着 重要 意义 。 然 而 目前 文本 倾向 性 分 析 研 究 主 要 着 重 于 对 文本 
进行 逻辑 理解 ， 并 不 关注 文本 潜在 表达 的 识别 与 构造 。 

本 文 提出 了 一 种 一 体 两 面 的 文本 分 解 与 文本 生成 算法 , 利用 预 训练 语言 模型 
分 析 与 构造 文本 的 潜在 表达 。 不 同 于 基于 神经 网 络 迁 移 学习 的 工作 , 本 文 的 方法 
不 需要 对 语言 模型 进行 微调 ， 而 是 利用 语言 模型 表征 的 信息 构建 语义 空间 ， 并 在 
语义 空间 上 传播 标记 信息 , 这 使 得 算法 避免 了 深度 学 习 的 昂贵 计算 开销 与 训练 的 
不 稳定 性 。 与 目前 多 维度 情感 分 析 工 作 相 比 ,文本 分 解 部 分 允许 用 户 自 定义 不 同 
的 分 解 目标 ， 基 于 半 监 督学 习 方法 , 仅仅 需要 进行 少量 标记 即 可 训练 将 文本 分 解 
为 目标 情绪 分 量 上 组 分 的 可 靠 模 型 .文本 生成 部 分 可 以 基于 分 解 部 分 标注 的 模型 
生成 具有 特定 情绪 分 量 的 文本 。 与 目前 文本 风格 迁移 工作 相 比 , 文本 的 生成 模型 
不 需要 使 用 神经 编 解 码 器 ， 因 此 有 更 高 的 效率 和 更 好 的 可 解释 性 。 

本 文 描述 的 算法 是 一 套 前 瞻 性 的 工具 内 核 , 其 拥有 可 解释 的 推理 过 程 , 通过 
定义 不 同 的 分 解 目标 , 该 方法 可 以 被 用 于 多 维度 情感 分 析 ` 和 与 情 监测 等 多 种 任务 ， 
也 为 大 规模 、 自 动 化 心理 测量 提供 了 一 种 可 能 。 


Kei: 自然 语言 处 理 ， 文 本 生成 ， 多 维度 文本 分 析 ; 语言 模型 ， 半 监督 学 习 
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Abstract 


Cognitive science research holds that a text will first form a kind of subconscious 
understanding before it is logically processed. This "conceptual domain" of 
subconscious understanding is based on our social and cultural environment. 

The subconscious emotion conveyed by the text is an important part of 
expression, which is of great significance in the fields of literary writing, political 
propaganda, psychotherapy and so on. However, the current research on text 
propensity analysis mainly focuses on the logical understanding of the text, and does 
not pay attention to the identification and construction of the potential expression of 
the text. 

In this paper, an algorithm of text decomposition and text generation is proposed, 
which uses the pre-training language model to analyze and construct the potential 
expression of text. Different from the work based on neural network transfer learning, 
the method in this paper does not need to fine-tune the language model, but uses the 
representation by the language model to build the semantic space. And propagates the 
tag information in the semantic space. This method avoids the expensive 
computational cost and the instability of training of deep learning. Compared with the 
current multi-dimensional emotion analysis work, the text decomposition part allows 
users to customize different decomposition goals. Based on the semi-supervised 
learning method. Only a few tags are required to train a reliable model that 
decomposes the text into components on the target emotion component. The text 
generation part can generate text with specific emotional components based on the 
model annotated by the decomposition part. Compared with the current text style 
transfer work, the text generation model does not need to use neural codec, so it has 
higher efficiency and better interpretability. 

The algorithm described in this paper is a set of forward-looking tool kernel, 
which has an interpretable reasoning process. It can be used for the tasks such as 
psychological counseling technology training and text generation of public opinion 
robot in the future. 


Keywords: Natural language processing; Text generation; Multi-dimension text 
analysis; Language model; Semi-supervised learning 


理论 基础 


心理 空间 与 文本 认 知 理论 概述 


认 知 语言 学 认为 ， 语 言 是 认 知 的 表征 ， 语 言 研究 必须 与 认 知 研究 结合 起 来 。 
文本 由 语言 构成 ,必然 也 涉及 到 认 知 过 程 ,因此 对 于 文本 的 研究 也 可 以 结合 认 知 
语言 学 的 研究 成 果 。1994 年 ,美国 认 知 语言 学 家 吉 勒 "t L8 HI (Gilles Fauconnier) 
提出 了 心理 空间 理论 ， 以 人 类 的 认 知 活动 为 基础 探讨 意义 建构 过 程 。 按 照 福 科 尼 
耶 的 观点 ， 意义 建构 涉及 到 人 们 在 思考 、 行 动 或 交流 时 进行 的 高 级 、 复 杂 的 心理 
活动 。 人 们 用 语言 进行 相互 交流 的 时 候 , 他 们 通常 会 建立 起 由 语言 信息 和 当下 语 
境 触 发 的 概念 域 ， 在 这 些 概念 域 中 进行 意义 的 构建 ， 从 而 实现 理解 。 
虽然 在 庞大 的 语言 体系 中 ， 涉 及 到 的 信息 和 原则 不 计 其 数 ， 但 这 并 不 代表 
我 们 必须 对 所 有 的 语言 学 规则 与 文化 概念 域 进行 建 模 才 可 以 进行 分 析 。 认 知 语言 
学 家 认为 ， 由 于 阅读 涉及 到 对 单字 的 辨识 、 对 词汇 的 理解 以 及 对 句子 的 分 析 ， 在 
读者 的 注意 力 有 限 的 情况 下 , 人 脑 必须 能 够 下 意识 地 处 理 包括 语言 信息 在 内 的 各 
种 视觉 输入 。 而 在 大 部 分 情况 下 ， 被 下 意识 处 理 、 且 承载 意义 的 最 小 语言 元 素 为 
词汇 。“ 承 载 意义 的 最 小 语素 ”意味 着 ， 表 达 需 要 通过 词汇 的 组 合 进行 实现 ， 文 
本 通过 词汇 建立 起 表层 结构 ， 以 此 来 传达 自己 的 内 涵 。 而 对 于 读者 来 说 ， 基 本 语 
素 与 读者 概念 域 中 的 相关 概念 联系 到 一 起 , 读者 就 可 以 进行 适当 的 意义 建构 (或 
称 情绪 感知 。 由 于 基于 本 能 的 理解 过 程 是 下 意识 进行 的 ， 这 种 建构 得 到 的 并 非 
是 文本 要 表达 的 直接 语义 一 一 这 里 涉及 到 本 文 所 研究 的 问题 与 自然 语言 倾向 性 
分 析 的 不 同 点 ， 认 知 语言 学 的 观点 认为 ， 语 言 是 隐喻 化 的 ,所 以 人 们 在 理解 表层 
语言 的 时 候 思维 也 是 隐喻 性 的 内 。 如 句子“ 你 总 是 嫌弃 这 个 嫌弃 那个 的 总 觉得 
所 有 人 都 喜欢 你 换个 头像 就 是 爱 你 了 ”尽管 它 在 逻辑 上 表达 的 是 负面 情感 ， 但 
“嫌弃 ”、“ 喜 欢 ” 和 “ 爱 ” 却 暗 指 一 个 强大 的 形象 ， 强 大 的 形象 反而 又 与 正面 
情感 存在 着 概念 链接 一 一 这 是 潜藏 在 直接 语义 之 下 的 、 基 于 概念 域 产生 的 、 不 受 
控 的 信息 一 一 不 同 于 意图 使 机 器 分 析 结 果 接 近 人 类 判断 的 倾向 性 分 析 算 法 , 本 文 
研究 的 , 基于 本 能 的 认 知 过 程 是 反 逻 辑 的, 就 像 我 们 没有 意识 到 大 脑 中 的 化 学 反 
应 一 样 , 我们 也 没有 意识 到 自己 在 理解 语言 时 所 进行 的 意义 建构 。 这 种 意义 建构 
是 通过 下 意识 对 人 产生 影响 ,但 优秀 的 作家 往往 会 透 过 词汇 的 选择 性 使 用 ,利用 
这 种 下 意识 的 反应 传递 自己 想 要 表达 的 感情 。 

长 久 以 来 ， 文 学 家 、 语 言 学 家 通过 使 用 理论 方法 解读 一 些 诗歌 或 小 说 铝 ， 试 
图 分 析 这 种 下 意识 反应 ， 寻 找 更 适合 的 写作 方式 或 语言 运用 规律 。 心 理学 家 与 认 
知 科学 家 则 通过 近 红 外 脑 成 像 加 、 眼 动 跟踪 中 等 技术 研究 人 在 阅读 过 程 中 的 生理 


反应 , 试图 寻找 文本 与 人 类 认 知 间 的 桥梁 。 本 文 研究 的 方法 通过 自然 语言 处 理 技 
术 自 动 化 地 建构 文本 意义 , 或 者 说 识别 文本 对 读者 认 知 的 影响 。 当 我 们 需要 从 认 
知 语言 学 与 心理 空间 理论 出 发 进行 分 析 时 , 就 需要 确定 读者 所 拥有 的 “概念 域 ”。 
康德 指出 ,文本 中 的 概念 如 果 不 与 读者 的 “前 理解 ”联系 起 来 就 不 会 产生 任何 意 
义 。 基 于 概念 域 的 理解 就 是 指 “ 读 者 对 文本 的 理解 涉及 到 他 们 对 已 获得 知识 相关 
音 息 的 回忆 和 组 织 ”。 换 句 话 说， 在 心理 空间 的 理论 框架 下 ， 任 何 文本 都 只 是 给 
读者 提供 一 定 的 线索 ， 使 他 们 利用 脑 中 的 知识 与 常识 来 构建 文本 的 意义 。 因 此 ， 
概念 域 可 以 被 类 比 为 读者 在 文本 解读 过 程 中 对 脑海 中 背景 知识 空间 的 激活 。 这 与 
目前 自然 语言 处 理 研究 中 预 训练 语言 模型 所 构建 的 语义 空间 不 谋 而 合 , 因此 本 文 
所 提出 算法 的 思路 即 为 ， 在 输入 文本 上 进行 采样 ， 结 合 语言 模型 提供 的 信息 ， 将 
高 维 的 输入 分 本 分 解 为 低 维 度 的 数 个 概念 分 量 , 这 数 个 概念 分 量 构 成 的 低 维度 向 
量 即 为 该 概念 域 下 读者 对 输入 文本 的 直观 意义 建构 ,或 者 说 输入 文本 对 读者 认 知 
的 影响 。 

值得 一 提 的 是 ， 如 果 将 模型 输出 视 为 文本 对 读者 认 知 的 施加 的 影响 。 那么 基 
于 目前 对 机 器 学 习 算 法 对 抗 性 攻击 的 研究 名 ,将 该 模型 视 为 攻击 的 对 象 ， 我 们 可 
以 构造 合适 的 输入 文本 , 使 得 它 对 读者 产生 我 们 想 要 的 特定 影响 。 在 计算 机 运算 
速度 的 加 持 下 , 使 用 该 算法 进行 这 一 工作 的 速度 是 文学 家 和 语言 学 家 所 不 能 达到 
的 。 这 将 为 写作 辅助 、 自 动 舆 情 控制 及 一 些 心理 学 与 认识 科学 研究 提供 重要 的 工 
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NO 


多 维度 情感 分 析 相 关 工 作 分 析 


本 文 的 方法 将 高 维 的 输入 分 本 分 解 为 低 维度 的 数 个 概念 分 量 。 在 形式 上 , 这 
与 多 维度 和 细 粒 度 情 感 分 析 相 似 。 由 于 多 维度 情感 分 析 往 往 不 能 使 用 离散 标注 外。 
目前 的 标注 一 般 基 于 情感 空间 理论 00， 如 Valence-Arousal-Dominance (VAD) 
模型 ，Evaluation-Potency-Activity (EPA) 模型 等 。Valence 和 Evaluation 表示 
好 坏 ，arousal 和 activity 表示 人 的 唤起 度 ，dominance 和 potency 表示 控制 力 。 
Yeh 等 i 和 Yu 等 0 就 构造 了 基于 VAD 模型 的 中 文 情 感 词典 。 然 而 此 类 情感 空 
间 模 型 是 作为 一 个 力求 通用 性 的 描述 存在 , 并 不 一 定 能 覆盖 特定 任务 的 情感 标记 
需求 。 

细 粒 度 情 感 分 析 又 称 为 基于 属性 的 情感 分 析 。 如 “和 群 里 人 才 辈 出 有 的 有 钱 
有 的 有 才 还 有 和 我 一 样 的 小 菜 鸡 ”， 从 单纯 情感 倾向 性 分 析 的 角度 来 看 很 难 判 
断 这 句 话 的 整体 情感 倾向 ， 因 为 他 赞扬 了 “和 群 里 的 人 才 ”， 但 吐槽 了 自己 。 目 前 
对 基于 属性 的 情感 分 析 已 经 取得 了 一 些 成 果 , 但 缺乏 对 隐 式 特征 和 隐 式 评论 的 挖 
据 。 如 “我 也 喜欢 别人 问 我 问题 但 是 基本 都 去 问 大 神 了 没 我 的 份 ”这 人 句 话 没有 


表达 “成 绩 不 好 ”的 相关 字 词 , 但 是 明显 可 以 看 出 该 句 表 达 出 了 对 自己 成 绩 的 负 
面 情绪 。 细 粒度 情感 分 析 中 的 隐 式 特征 抽取 针对 这 一 问题 进行 研究 。Li 等 9 抓 
取 了 数 百 万 条 微 博 数据 构造 了 一 个 中 文 内 隐情 绪 分 析 语 料 库 , 解决 中 国人 情感 表 
IAG fe, 口语 中 缺乏 明显 情感 词汇 的 问题 。 根 据 认 识 语言 学 研究 ， 所 有 词语 GE 
本 语素 ) 都 会 基于 日 常 惯用 法 产生 与 其 高 频 共 现 词 的 概念 连接 ， 因此 不 需要 显 式 
地 进行 隐 式 情绪 分 析 。 根 据 这 一 假设 ，Yang 等 0 的 工作 更 贴近 于 本 文 的 需求 ， 
他 们 提出 了 一 种 基于 图 -注意 卷 积 神经 网 络 的 隐 式 情绪 分 析 模 型 。 使 用 图 卷 积 神 
经 网 络 来 传播 语义 信息 。 注 意 机 制 被 用 来 计算 单词 对 情感 表达 的 贡献 。 本 文 的 算 
法 参考 了 其 思想 , 但 对 实现 进行 了 简化 , 直接 在 预 训练 语言 模型 的 语义 空间 传播 
语义 标签 《这样 不 需要 依赖 图 神经 网 络 的 训练 ) 。 


文本 风格 迁移 相关 工作 分 析 


文本 风格 迁移 是 近 几 年 出 现 的 新 研究 方向 。 其 与 同 为 文本 转换 的 机 器 翻译 问 
题 的 区 别 是 ， 文 本 风格 迁移 缺乏 平行 语 料 数据 进行 训练 。 

直观 的 思路 是 分 离 文本 的 风格 与 内 容 ， 然 后 使 用 新 的 风格 重新 生成 。 主 要 结 
构 采 用 生成 对 抗 网 络 (GAN) 与 编 解码 器 。 编 码 器 负责 分 离 文本 的 内 容 表 征 和 风格 
表征 ， 带 解码 功能 的 生成 器 负责 根据 指定 的 风格 与 内 容 生成 文本 。 鉴别 器 基于 迁 
移 强度 、 语 义 保留 、 结 果 流 畅 性 等 指标 进行 优化 。 其 中 ， 风 格 表 征 作 为 解码 器 输 
入 的 一 般 被 称 为 “可 控 生 成 ”， 如 Hu 等 05]。 而 如 果 解 码 器 只 输入 内 容 编码 ， 那 
么 针对 不 同 风 格 需要 训练 多 个 解码 器 , 如 Xu 等 09 的 工作 为 多 解码 器 。 而 Fu SEN 
的 工作 两 类 模型 均 被 包含 在 内 。Dai 等 中 的 工作 不 显 式 分 离 输 入 文本 的 风格 ， 而 
是 直接 将 其 与 另 一 个 编码 器 训练 出 的 风格 编码 共同 输入 Transformer 进行 生成 ， 
与 鉴别 器 联合 训练 。 

Dathathri 等 09 基 于 针对 神经 网 络 的 白 盒 对 抗 性 攻击 的 思路 进行 指定 风格 化 
的 文本 生成 ， 其 训练 一 个 属性 模型 攻击 预 训练 的 文本 生成 模型 ， 属 性 模型 在 生成 
的 每 个 时 间 步 计算 对 抗 梯度 值 ， 并 将 其 登 加 到 语言 模型 RNN 的 隐 状 态 上 。 通 过 
在 优化 项 加 入 对 抗 梯度 与 语言 模型 隐 状 态 的 KL 散 度 ， 提 高 生成 结果 流畅 性 。 

Guu 等 PI 的 工作 不 显 式 分 离 风格 标签 ， 而 是 对 编辑 行为 建 模 。 其 提出 的 “ 原 
型 -编辑 ”模型 训练 过 程 为 从 语料库 采样 一 个 竺 改写 的 原型 句子 进行 编码 ， 然 后 
引入 一 个 编辑 向 量 在 神经 网 络 (神经 编辑 器 ) 中 修改 句子 编码 , 以 生成 新 的 句子 。 
优化 过 程控 制 每 次 编辑 的 语义 改变 量 , 并 使 相似 的 编辑 向 量 执行 相似 的 语义 编辑 ， 
使 得 随 着 训练 可 以 使 得 编辑 向 量 捕获 语义 信息 。 

以 上 工作 均 使 用 了 神经 语言 模型 和 编 解码 器 结构 , 虽然 可 以 对 文本 的 语义 进 
行 表 征 , 但 生成 表征 和 迁移 文本 的 过 程 依然 是 不 可 解释 的 。 此 外 ,根据 我 们 对 这 


些 方法 的 实验 分 析 。 交 叉 对 齐 和 多 解码 器 往往 会 丢失 源 语句 的 内 容 。 解码 器 倾向 
于 生成 一 个 频繁 但 仪 与 目标 属性 弱 相 关 的 句子 ,我 们 的 结论 是 在 保留 原始 内 容 和 
删除 原始 风格 之 间 存 在 微妙 的 平衡 ， 现 有 的 编 解码 器 方法 往往 会 牺牲 其 中 一 个 。 

Xu 等 09 与 Li 等 上 的 思路 与 本 文 算法 反 向 过 程 改 写 的 实际 行为 类 似 , 其 假设 
文本 传递 的 信息 体现 在 文本 中 的 茶 些 特定 词汇 上 。 通过 改变 这 些 词汇 ， 就 可 能 
接 改变 整个 文本 的 属性 。Xu 等 3 提出 的 模型 分 为 多 个 模块 ， 先 采用 预 训练 的 情 
感 分 类 器 去 除 原 句 中 的 情感 词 得 到 中 立 句子 ， 再 使 用 seq2seq 向 中 立 句子 添加 情 
感 词 ， 其 中 不 同情 感 使 用 不 同 的 解码 器 。Li 等 (9 的 工作 先 使 用 统计 方法 在 已 标 
记 的 不 同 风格 语 料 中 统计 表示 风格 的 关键 n-gram。 对 于 竺 修改 的 句子 ， 首 先 删 
除 其 中 的 风格 n-gram， 然 后 在 目标 情感 语 料 中 寻找 与 原 句 子 最 相近 句子 中 的 风 
Kt n-gram， 最 后 使 用 直接 替换 和 拼接 中 立 句 子 编码 与 目标 风格 n-gram 编码 后 重 
解码 两 种 方法 进行 生成 。 


半 监 督 情感 标记 相关 工作 分 析 


在 目前 半 监 督 自然 语言 处 理 的 工作 中 ， 使 用 预 训练 语言 模型 B22 已 成 为 引入 
域外 数据 的 一 种 强大 方式 。 如 方 漆 等 BB 提出 了 一 种 基于 BERT 词 向 量 构建 全 局 
特征 图 的 半 监 督 文本 情感 分 类 方法 。 该 方法 使 用 BERT 词 向 量 构建 全 局 异 构图 ， 
基于 词语 共 现 关系 在 全 局 异 构图 上 进行 特征 传递 ,最 后 将 全 局 特征 图 输入 到 图 卷 
积 网 络 中 使 用 已 标记 数据 进行 训练 。 但 在 很 多 时 候 下 ， 计 算 也 是 一 种 稀缺 资源 ， 
微调 庞大 预 训练 语言 模型 的 代价 可 能 是 昂贵 的 。 

也 有 人 试图 利用 变 分 自 编码 器 (VAE) 进 行 自然 语言 处 理 任务 上 的 半 监 督学 
2], 主要 是 以 seq2seq 模型 的 形式 2% 汪 ,这 些 模型 使 用 针对 序列 的 编 解码 器 结构 。 
虽然 这 些 工作 的 实验 结果 良好 , 但 仍 有 许多 甚而 未 决 的 问题 需要 进一步 研究 : 首 
先 ,鉴于 已 知 seq2seq VAE 的 训练 难度 29, 这 种 方法 在 实践 中 是 否 有 用 值得 怀疑 。 
其 次 ， 目 前 还 不 清楚 在 文本 分 类 等 任务 中 是 否 真 的 需要 这 种 复杂 的 模型 。 

本 文 希望 能 够 使 用 一 种 较为 简洁 和 稳定 的 方法 , 在 少量 标记 数据 实现 大 规模 
语 料 的 分 解 。 根 据 以 往 的 研究 可 以 知道 , 神经 网 络 形 成 的 中 间 表 示 空 间 可 以 作为 
语义 表征 2*T， 基 于 神经 网 络 的 语言 模型 也 具备 这 种 性 质 叶 。 因 此 本 文 使 用 类 似 
标签 传播 算法 的 方法 , 利用 预 训练 语言 模型 的 表示 空间 , 但 不 进行 任何 新 的 神经 
网 络 训练 ， 避免 训练 过 程 的 昂贵 代价 和 不 稳定 性 。 如 张 瑛 等 基于 标签 传播 算法 的 
工作 P9 先 构建 词 和 种 子 词 的 图 , 图 上 的 边 是 基于 词 和 词 之 间 的 统计 信息 获得 。 然 
后 用 标签 传播 的 算法 获得 新 词 的 情感 信息 。 本 文采 用 方法 的 不 同 点 是 直接 在 连续 
语义 空间 上 进行 标签 传播 ， 因 此 不 需要 构建 图 的 过 程 。 


正 向 过 程 : 文本 分 解 


概念 定义 


文本 分 解 问题 的 定义 为 : 将 高 维 的 输入 分 本 分 解 为 低 维度 的 数 个 概念 分 量 。 
这 些 概念 分 量 通常 描述 的 是 该 文本 (在 不 同方 向 上 的 ) 情绪 表达 。 首 先 介 绍 描述 
文本 分 解 算 法 将 用 到 的 基本 概念 。 

定义 1 基本 语素 

输入 分 解 算法 的 文本 信息 被 处 理 的 最 小 单位 , 视 不 同 问题 可 以 被 定义 为 “ 字 ”、 
“ 词 ”、“ 短 语 ” 等 。 一 般 认 为 ， 被 下 意识 处 理 、 且 承载 意义 的 最 小 语言 元 素 为 
词汇 四 。 本 文 的 实验 中 也 将 基本 语素 定义 为 单词 。 

定义 2 基本 语素 的 嵌入 表示 

语言 形式 的 基本 语素 在 语言 模型 中 的 对 应 数字 化 形式 。 我 们 熟悉 的 word2vec 
词 向 量 是 嵌入 表示 的 一 种 。 从 各 种 语言 模型 中 都 可 以 提取 对 基本 语素 的 嵌入 表示 
(一 般 是 网 络 中 间 层 的 计算 结果 ) ,但 不 是 所 有 语言 模型 都 可 以 保证 不 同 基 本 语 
素 虑 入 表示 的 正 交 性 60,， 一 般 来 说 , 捕获 语义 越 丰富 的 语言 模型 单个 嵌入 间 的 正 
交 性 越 差 。 需 要 根据 分 析 需 求 选择 语言 模型 。 

定义 3 语义 空间 

描述 各 基本 语素 嵌入 表示 远近 关系 的 空间 。 语 义 相 似 的 基本 语素 将 在 语 
间 上 有 着 更 近 的 距离 。 

定义 4 概念 构成 

文本 分 解 算法 的 输出 ， 是 由 数 个 概念 分 量 〈 实 数 ) 构成 的 向 量 。 在 训练 过 程 
中 ， 算 法 会 计算 每 个 基本 语素 的 概念 构成 。 在 分 解 阶段 ， 算 法 会 根据 输入 文本 中 
各 基本 语素 的 概念 构成 计算 整个 文本 的 概念 构成 。 


标记 -传播 算法 


“标记 -传播 ”是 文本 分 解 算法 的 训练 步骤 ， 它 是 一 种 半 监 督 方法 ， 目 标 是 让 
用 户 只 需要 进行 少量 的 标记 即 可 获得 大 部 分 基本 语素 相对 准确 的 概念 构成 。 由 于 
在 语义 空间 相近 的 基本 语素 具有 相似 的 语义 ， 因 此 应 当 具 有 相似 的 概念 构成 。 所 
以 ， 对 于 每 个 用 户 进行 的 基本 语素 标记 ,算法 在 语义 空间 向 其 近邻 的 基本 语素 传 
播 本 次 标记 信息 ， 以 实现 对 其 它 基 本 语素 的 自动 标记 。 
具体 来 说 ， 定 义 每 个 用 户 标 记 为 三 元 组 Input: 
Input = (InputWord, InputCmptIndex, InputCmptValue) 


其 中 ImnputWord 为 用 户 本 次 标记 的 基本 语素 ，ImputCmptindex 为 被 标记 的 
概念 分 量 类 型 ，ImputCmptValue 为 该 概念 分 量 被 标记 的 值 。 

首先 ， 算 法 会 计算 InputCmptValue 相 对 目前 mputWord 该 分 量 值 的 增 量 ， 
如 下 式 所 示 : 

ACmptValue = InputCmptValue — AllCMpt nputword, InputCmptindex 
然后 将 当前 存储 的 基本 语素 该 分 量 值 设 为 目标 值 ， 如 下 式 所 示 : 
AllCmptiputwora, InputCmptindex = InputCmptValue 

其 中 411Cmpt 为 存储 所 有 基本 语素 各 分 量 值 的 矩阵 。 
由 于 每 次 传播 ， 算 法 都 会 使 得 近邻 的 基本 语素 拥有 相似 的 概念 构成 。 因 此 在 
新 的 传播 发 生 时 ， 只 需要 向 周围 传播 此 次 标记 产生 的 增 量 ACmptVvalue 即 可 使 得 
邻 域 的 概念 构成 保持 平衡 。 传 播 过 程 为 一 个 递归 过 程 ,每 次 递归 传播 的 增 量 发 生 
衰减 ， 直 到 小 于 阔 值 ， 传 播 停止 。 有 具体 算法 如 下 : 


算法 1 “标记 -传播 ”算法 的 递归 传播 过 程 
Propagate(word,CmptIndex,ACmptValue) 

1. NeighborhoodWordSet = FindNeighborhoodWord(word) 

2. For word2 in NeighborhoodWordSet 

3. If word2 not in visitedWords 

dist = cosine(word, word2) 

ACmptValue2 = dist x ACmptValue 

AUCMptyord2, Cmptindex = AUCMptyord2, cmptindex + ACmptValue2 


If ACmptValue2 > t 


poe. mE Ov wu od 


Propagate(word2, CmptIndex, ACmptValue2) 


递归 函数 的 参数 为 基本 语素 word， 概念 分 量 类 型 CmptIindex, 概念 分 量 增 量 
ACmptValue。FindNeighborhoodWord 函数 在 语义 空间 中 查找 word 的 近邻 基 
本 语素 ， 其 实现 不 宜 将 “近邻 ”的 阐 值 设置 太 小 ， 因 为 算法 的 递归 深度 应 由 姜 值 
Tt 控 制 。cosine 函 数 计算 余弦 相似 度 ， 由 于 余弦 相似 度 范 围 为 [一 1,1]， 因 此 可 以 
直接 作为 衰减 权重 。 最 终 ， 当 增 量 衰减 到 小 于 rz 时 ， 递 归结 束 。 


用 于 用 户 标注 的 交互 式 程序 


本 文 设计 了 如 图 1 所 示 的 交互 式 命令 行 前 端 让 用 户 更 方便 地 进行 标注 (其 中 
绿色 部 分 为 用 户 输入 ) 。 
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图 1 用 于 标注 的 交互 式 程序 


该 交互 式 程序 包含 “标注 ”、“ 碍 询 ” 与 “保存 ”三 个 命令 。 交 互 式 程序 除 
了 有 助 于 用 户 准 备 训练 数据 外 , 更 重要 的 一 点 是 可 以 让 用 户 修正 标注 信息 传播 时 
产生 的 一 些 错误 。 假 设 在 语义 空间 上 正确 的 概念 构成 分 布 应 为 图 2 的 降 维 可 视 化 
结果 所 示 《 颜 色 代 表 语 义 强度 ) 。 


图 2 真实 概念 构成 分 布 


但 如 果 用 户 的 标注 往往 是 不 完善 的 ， 如 果 使 用 如 图 3 的 标注 数据 ， 可 能 会 时 
致 传播 过 程 过 度 强 化 了 左 侧 区 域 。 
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图 3 不 完整 的 用 户 标注 导致 传播 失真 


此 时 用 户 可 以 使 用 交互 式 程序 查询 到 右 侧 区 域 与 左 侧 区 域 的 概念 构成 不 符 
合 常 理 ， 然 后 选择 补充 标注 右 侧 区 域 或 修改 左 侧 区 域 的 标注 。 由 于 “标记 -传播 ” 
算法 在 语义 空间 中 传播 的 是 增 量 , 那么 当 修 改 被 过 度 强化 的 左 侧 区 域 时 ， 算 法 会 
向 周围 传播 负 增 量 ， 得 到 正确 结果 。 如 图 4 所 示 。 


4 通过 修改 左 侧 区 域 标记 修正 失真 


其 中 左 侧 图 为 重新 标记 蓝 色 菱形 位 置 时 产生 的 负 增 量 传播 范围 ( 负 增 量 数 值 
大 小 用 反 相 颜 色 表示 ， 即 蓝 色 菱形 周围 的 红 黄 色 区 域 》， 盈 加 负 增 量 后 的 语义 空 
间 概 念 构成 分 布 为 右 图 所 示 。 可 以 看 出 ， 它 更 接近 于 真实 概念 构成 分 布 。 

这 样 ， 当 用 户 发 现 算法 结果 存在 问题 时 ， 可 以 直接 使 用 交互 式 程序 查询 可 能 
出 现 问题 的 基本 语素 ,并 快速 进行 针对 性 修正 。 而 不 像 大 部 分 机 器 学 习 模 型 只 能 
通过 机 械 性 地 添加 数据 进行 完善 。 


文本 分 解 算法 


完成 对 语义 空间 的 标记 后 ， 即 可 对 真实 语 料 进行 文本 分 解 。 最 直接 的 方法 是 
计算 语 料 中 所 有 基本 语素 的 概念 构成 均值 作为 该 语 料 分 解 结果 。 首先 使 用 分 词 算 
法 拆 分 输入 分 本 后 ， 再 使 用 停 用 词 表 去 除 停 用 词 。 对 于 剩余 的 每 个 单词 
Textyrordi， 和 查询 其 对 应 的 基本 语素 能 入 表示 wordi， 如 果 可 以 直接 查 到 ， 那 么 
可 以 直接 用 于 计算 均值 ， 如 下 式 所 示 : 


AvgVec = ( > word;)/n 


wordj€allWord 


其 中 为 本 次 处 理 的 单词 数量 。 

对 于 无 法 直接 查询 到 先入 表示 的 TextWordi (KER) ， 本 文采 用 类 似 
FastTextG0 的 嵌入 合成 方法 。 如 对 于 中 文 单词 , TextVWrord ;为 字 序列 fcl c2 ......04]« 
对 于 其 中 的 每 个 字 c:， 可 以 对 其 出 现 的 所 有 可 查询 到 的 词 租 入 进行 平均 ， 作 为 该 
字 的 嵌入 表示 ， 如 下 式 所 示 : 


EmbeddedC, = ( 2. word; )/n 


ci€TextWordj 
得 到 {ci, €2......c4) PIA ERE EUN ZA Ia BILE FH RGB E TIT extW ord; tk 
入 表示 wordi， 如 式 下 式 所 示 ; 
word, = ( > EmbeddedC, )/n 


c;€TextW ord; 


由 于 使 用 FastText 方法 计算 的 词 戏 入 并 非 经 过 语言 模型 严格 训练 得 到 ， 因 此 
需要 降低 其 在 文本 概念 构成 均值 计算 中 的 权重 ， 本 文 实验 中 将 其 权重 设 为 0.5。 
整体 算法 如 下 : 


算法 2 直接 均值 法 文本 分 解 

输入 : 单词 序列 TextWord 

输出 : 概念 构成 4vgVec 

1. n = 0, AvgVec = {0,0, ......0} 

2. For TextWord; in TextWord 

3. If word; (Embedded representation of TextWord;) cannot be found 
4 Calculate word; using FastText 

5. n=n+0.5 

6 AvgVec = AvgVec + word; x 0.5 


7. Else 

8. n=n+1 

9. AvgVec = AvgVec + word; 
10. AvgVec = AvgVec/n 


可 以 看 出 ， 该 方法 并 没有 考虑 基本 语素 间 的 顺序 关系 。 这 是 因为 ， 根 据 认 知 
科学 研究 ， 人 在 阅读 时 进行 的 是 跳 读 ， 而 并 非 从 左 到 右 的 机 械 扫描 。 这 意味 着 ， 
一 个 短 句 中 的 所 有 词语 会 并 发 地 被 下 意识 接收 , 然后 再 基于 逻辑 解析 它 的 顺序 关 
Ro 所以， 基于 本 文 的 研究 目的 , 不 需要 考虑 短 句 中 的 顺序 关系 ， 每 个 基本 语素 
应 视 为 具有 相同 的 地 位 。 而 对 于 长 文章 , 则 需要 将 其 拆 分 成 短 句 并 对 每 个 短 句 进 
行 分 析 ， 这样 可 以 得 到 整个 文章 情绪 表达 变化 的 动态 过 程 。 需 要 注意 的 是 ， 尽管 
人 在 阅读 短 句 时 是 并 发 的 , 但 在 阅读 长 文章 时 是 顺序 的 , 因此 每 个 短 句 的 情绪 表 
达 会 受 其 前 驱 短 句 的 影响 。 设 长 文章 为 短 句 序列 {S81, 52.….54} 组 成 , 对 于 si 的 概念 
构成 EmbeddedS;， 如 下 式 所 示 : 

EmbeddedS; = r x EmbeddedS; 4, + (1 — r)RawEmbeddedS; 

其 中 RawEmbedded5Si 是 将 si 输入 到 算法 2 得 到 的 结果 。7 为 折扣 因子 。 


由 于 文本 分 解 算法 得 到 的 是 由 文化 产生 的 “概念 域 ” 所 建构 的 深层 语义 ， 
此 本 章 的 实验 将 针对 文化 现象 进行 分 析 。 

在 当前 的 恋爱 文化 中 , 一 方 想 要 发 展 关 系 的 程度 往往 与 男 一 方 外 貌 紧密 相连 。 
如 我 们 曾经 使 用 “ 当 你 在 一 对 一 聊天 中 夸奖 对 方 可 爱 时 , 你 是 否 并 不 排斥 与 对 方 
发 展 关 系 ? ”这 一 问题 进行 问卷 调查 ， 最 终 乎 均 有 八成 的 受 试 者 选择 了 “是 ”， 
其 中 女性 受 试 者 超过 九 成 都 选择 了 “是 ”。 这 意味 着 , 在 一 对 一 交流 中 ,“ 可 爱 ”、 
“ 真 好 看 ”、“ 好 帅 ” 等 词 往往 兼顾 了 “外 貌 ” 和 “发 展 关 系 意愿 ”两 个 概念 分 
量 上 的 语义 强度 。 而 与 “外 貌 ” 相 对 的 则 是 “内 在 ”。 那 么 是 否 存 在 类 似 的 表达 ， 
可 以 兼顾 “发 展 关 系 意愿 ”和 “对 对 方 内 在 的 赞美 ” 呢 ? 

本 节 的 实验 首先 使 用 文本 分 解 模 型 分 析 这 一 问题 , 然后 与 人 类 受 试 者 提出 的 
方案 进行 对 比 。 
基于 文本 分 解 的 分 析 

首先 介绍 实验 设置 。 本 实验 设 定 的 概念 构成 含有 “外 貌 评价 ”、“ 发 展 关 系 
意愿 ”、“ 内 在 评价 ”三 个 分 量 ;， 预 训练 模型 来 自 使 用 微 信 公 众 号 文章 数据 训练 
的 word2vec 模型 。 训练 数 据 来 自 网 络 收集 的 表白 、 表 白 试探 语 料 和 知 乎 问题 “你 


见 过 最 聪明 的 男孩 子 /女孩 子 是 什么 样子 ”下 的 回答 两 部 分 。 由 人 工 对 整个 句子 
的 三 个 概念 分 量 进行 标注 , 随后 使 用 摘要 算法 抽取 每 个 句子 中 的 1-3 个 关键 词 作 
为 实际 被 标记 的 基本 语素 ， 使 用 “标记 -传播 ”算法 进行 半 监 督 训 练 ， 共 进行 50 
次 标记 。 部 分 标注 数据 如 表 1 所 示 。 


表 1 部 分 标注 数据 


语 料 标注 ( [外 貌 ,发 展 关系 意愿 ,内 在 ] ) 
你 果然 嫌弃 我 ， 我 刚才 只 是 在 试探 [0,5,0] 
特别 是 对 于 在 意 的 人 就 会 觉得 很 委屈 [0,5,0] 
就 是 觉得 你 好 可 爱 [8,5,0] 
你 怎么 还 不 跟 我 表白 [0,9,0] 
知识 真 的 可 以 让 一 个 人 很 有 魅力 [0,3,5] 


其 中 蓝 色 部 分 为 摘要 得 到 的 关键 词 ， 它 们 作为 被 标记 的 基本 语素 。 

算法 使 用 Python3.6 实现。 为 了 模拟 低 计算 资源 环境 ,训练 在 AMD Athlon2 X2 
640 处 理 器 、8G 内 存 的 PC 平台 上 进行 。 传 播 停止 闪 值 z = 0.1。 所 用 训练 时 间 为 
lh 2min 38sec. 

首先 进行 样本 内 精度 测试 。 例 句 “ 就 是 觉得 你 好 可 爱 ”， 归 一 化 (使 概念 构 
成 模 为 10) 分 解 结果 为 [2.0717,2.386,0.125]; 例句 “知识 真 的 可 以 让 一 个 人 很 有 
魅力 ”分 解 结果 为 /7.722,0.346,.2.7891 (ENS IU A EKA ELE, P A, A 
TED. ， 各 分 量 比例 符合 预期 。 

本 节 的 目标 是 使 用 文本 分 解 模型 试图 寻找 类 似 “ 可 爱 ”【〔 概 念 构成 为 
[7.0,8.172,0.433]) ， 兼 顾 “ 发 展 关系 意愿 ”和 “内 在 评价 ”的 最 佳 表 达 。 方 法 是 
设 定 起 点 词 ， 以 其 欢 入 表示 坐标 为 起 点 ， 以 近邻 的 50 个 点 估算 区 间 梯 度 ， 使 用 
贪心 法 向 提升 目标 分 量 方向 移动 ， 寻 找 合适 的 表达 。 

使 用 “可 爱 ” 为 起 点 词 ， 提 升 “ 内 在 评价 ”分 量 ， 结 果 如 图 5 所 示 。 
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ij 


T T T T T T T 
"E 帅气 美 气 ae 面庞 神采 飞扬 ”神采 奕奕 


图 5 以 “可 爱 ” 作 为 起 点 词 迭代 到 局 部 最 优 


其 中 横 坐 标 为 每 次 迭代 产生 的 更 适 表达 , 纵 坐 标 为 “内 在 ”分 量 的 语义 强度 。 
可 以 看 出 ， 虽 然 随 着 迭代 的 进行 ， 词 语 的 语义 向 “开朗 乐观 ” 方 同 移动 ， 但 仍 在 
借助 外 貌 特 征 进行 表达 。 

使 用 “魅力 ”为 起 点 词 ， 提 升 “ 内 在 评价 ”分 量 ， 结 果 如 图 3-5 所 示 。 
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义 ， 而 “崇拜 ”具有 “发 展 关 系 意 愿 ” 分 量 上 的 语义 强度 ， 这 是 一 个 可 以 接受 的 
结果 。 

使 用 “知识 ”为 起 点 词 ， 提 升 “ 发 展 关 系 意 愿 ” 分 量 ， 结 果 如 图 3-6 所 示 。 


知识 


7 以 “知识 ”作为 起 点 词 迭 代 到 局 部 最 优 


本 次 迭代 收敛 到 “ 疆 拜 ”和 上 一 次 收敛 到 “闪光 ”的 结果 可 以 互相 印证 ， 因 
为 这 两 个 词 具有 较 高 的 共 现 频率 ， 明 显 可 以 形成 简单 负 “很 崇拜 〈 你 这 种 ) 闪闪 
发 光 的 人 ”。 说 明 本 章 提出 的 算法 所 标记 的 语义 空间 与 人 类 认 知 相符 ， 且 达到 了 


本 节 的 任务 目标 。 
人 类 受 试 者 方案 分 析 


在 上 一 节 ， 文 本 分 解 算法 的 分 析 结 果 显 示 “ 案 和 拜 ”、“ 闪 光 ” 可 以 兼顾 “发 
展 关 系 意愿 ”和 “对 对 方 内 在 的 赞美 ”两 个 分 量 上 的 语义 强度 。 本 节 将 收集 人 类 
的 结果 进行 对 比 。 我 们 在 在 线 平台 以 “用 尽量 简短 的 句子 表达 因 对 方 内 在 美 而 生 


的 喜欢 ”为 问题 收集 答案 。 对 得 到 的 结果 使 用 文本 分 解 模型 和 读者 主观 评测 两 种 


方法 进行 评价 ， 部 分 结果 如 表 2 所 示 。 
表 2 部 分 人 类 受 试 者 方案 评价 


答案 语 料 


文本 分 解 结果 ( [发 展 关系 意 ”读者 主观 评测 
愿 ,外 貌 ,内 在 ] ) 


跟 你 相处 真 的 好 快乐 ， 我 感 
觉 之 前 从 来 没 遇 到 像 你 一 样 
让 我 聊天 舒畅 开心 过 的 人 
跟 你 这 么 可 爱 的 人 聊天 真 的 
好 开心 

跟 你 这 么 懂 我 的 人 聊天 真 的 


[2.322,0.254,0.152] 聊天 开心 是 两 个 人 之 间 的 ， 
和 对 方 的 内 在 没有 必然 联系 
吧 

[2.358,2.227,0.174] 没 体现 出 内 在 


[2.343,0.271,0.176] “ 懂 我 ”不 一 定 代表 内 在 美 


很 开心 up e+ eee. 

我 感觉 你 对 我 来 说 特别 可 — [2.598,2.472,0.417] 太 绕 了 

爱 ， 我 很 喜欢 你 这 种 性 格 

我 感觉 我 们 简直 是 天 造 地 设 [2.364,0.434,0.093] 没 体现 出 内 在 
的 一 对 

也 许 你 就 是 我 人 生 拼 图 中 另 [2.632,0.535,0.487] 没 体现 出 内 在 
一 半 


对 比 表 中 的 文本 分 解 结果 与 主观 评测 结果 ， 除 了 句子 “我 感觉 你 对 我 来 说 特 
别 可 爱 ， 我 很 喜欢 你 这 种 性 格 ” 算 法 无 法 理解 句 中 的 “可 爱 ” 是 修饰 “性 格 ”， 
因此 导致 算法 结果 外 貌 分 量 较 高 , 不 符 句 子 本 意外 。 其 它 句 子 的 分 解 结果 均 与 主 
观 评测 结果 相符 , 证 明了 算法 可 以 有 效 分 析 句 子 对 读者 的 认 知 的 影响 。 用 同样 的 
方法 评价 算法 给 出 的 结果 ， 如 表 3 所 示 。 


表 3 算法 方案 评价 


答案 语 料 文本 分 解 结果 ( [发 展 关 系 意 读者 主观 评测 
愿 ,外 貌 ,内 在 ] ) 
很 崇拜 你 这 种 内 闪 发 光 的 人 [2.232,0.049,2.102] 相对 来 说 好 一 些 ， 但 “闪光 ” 
指 的 是 能 力 ， 能 力 只 是 内 在 
的 一 部 分 


可 以 看 出 ， 本 节 问 题 下 ， 算 法 方案 的 两 种 评价 结果 均 优 于 人 类 方案 。 可 以 证 
明 ， 算 法 结果 构造 的 简单 句 更 贴近 我 们 需要 的 表达 。 


反 向 过 程 : 文本 生成 


文本 生成 算法 


基于 上 一 章 的 工作 ， 我 们 已 经 可 以 使 用 文本 分 解 算法 分 析 文本 的 情绪 表达 。 
那么 既然 已 经 知道 语义 空间 中 各 个 基本 语素 的 概念 构成, 是 否 可 以 让 算法 自动 所 
5 (修改 ) 文本 ,表达 我 们 想 要 传递 的 特定 情绪 或 暗示 ? 这 一 问题 程序 化 地 表述 
即 为 : 如 何以 优化 文本 分 解 算法 的 输出 为 目标 ， 调 整 算 法 输入 。 这 即 是 本 章 “ 反 
向 过 程 ”的 含义 。 


本 文 设计 的 文本 生成 算法 基于 一 个 重要 的 结论 : 文本 属性 的 转移 通常 可 以 在 
保持 句子 的 其 余部 分 基本 不 变 的 情况 下 , 通过 改变 句子 中 表示 特定 属性 的 几 个 语 
素来 完成 。 以 往 的 认 知 科学 中 和 自然 语言 处 理 R1 研 究 都 证 明了 这 一 点 。 

在 针对 机 器 学 习 模型 的 对 抗 性 攻击 研究 中 ， 一 种 常见 的 思路 是 ， 计 算 模型 损 
失 ， 估 计 模 型 内 部 在 当前 输入 下 的 梯度 ， 并 将 输入 向 梯度 上 升 方向 移动 加。 对 于 
本 章 的 问题 , 由 于 已 知 整个 语义 空间 的 概念 构成 分 布 , 因此 可 以 计算 每 个 位 置 的 
各 分 量 梯度 。 那 么 可 以 以 待 改写 文本 中 的 基本 语素 为 起 始点 ， 根 据 梯度 方向 ， 癌 
目标 概念 构成 移动 ， 在 新 的 区 域 选择 更 符合 目标 的 基本 语素 。 

形式 化 地 表述 ， 设 语义 空间 为 99$， 此 时 我 们 可 以 查询 嵌入 坐标 e 的 概念 构成 : 

SS(e) =W 

其 中 概念 构成 W = {ww2.….wn}。 由 于 概念 构成 的 每 个 分 量 都 是 正 交 的 ， 
因此 可 以 将 查询 多 个 分 量 的 过 程 视 为 多 个 单 因 变量 函数 。 那么 当 需 要 提升 (或 降 
低 ) 分 量 wi 时 ， 就 可 以 向 函数 $5i(e) = wi 的 梯度 (或 负 梯 度 ) 方向 移动 。 即 对 于 
待 改写 句子 中 的 每 个 基本 语素 嵌入 wordi， 当 想 要 增 大 其 第 1/ 个 概念 分 量 到 值 v 
时 ， 和 迭代 公式 如 下 式 ; 


word;*! = word; + aVSS;(word|) 
其 中 word; 的 上 标 为 迭代 次 数 ，a 为 步 长 。 和 迭代 停止 条 件 如 下 式 : 
ISS;(word;) — v| < t 
TEVABRUN AB Pn BEAR — PSE AS RT extW ord; {FAR icr. Et BE EE HR 


当 需 要 同时 优化 多 个 概念 分 量 时 ， 每 步 的 前 进 方向 需要 县 加 各 分 量 的 梯度 。 
如 下 式 所 示 : 
wordt*! = wordt + 2: aVSS;(wordj) 
j 


此 时 停止 条 件 计算 所 有 分 量 距离 目标 差 的 平均 ， 如 式 下 式 所 示 : 
(È lssi(wordD = v; /n « « 
j 


这 种 直接 替换 方法 很 多 时 候 会 产生 不 恰当 的 上 下 文 。 本 文采 用 两 种 方法 对 其 
进行 约束 。 首 先 限 制 蔡 换 的 基本 语素 词性 与 原先 相同 〈 保 证 语法 正确 性 ) ; 其 次 
记录 迭代 中 每 一 步 选择 的 蔡 换 结果 ,对 每 个 位 置 、 每 一 步 结 果 构 成 的 所 有 生成 文 
本 组 合 在 语言 模型 中 计算 联合 概率 ， 选 择 概率 更 高 的 结果 保证 语言 流畅 性 )。 
这 里 比较 适合 使 用 的 语言 模型 是 刘 廷 镇 等 22 提出 的 概率 图 语言 模型 , 因为 该 模型 
可 以 直接 计算 指定 句子 出 现 的 概率 , 而 神经 网 络 语言 模型 的 联合 概率 信息 大 多 是 
隐藏 的 。 


Sk ow 


本 节 的 实验 使 用 文本 风格 迁移 任务 来 检验 本 章 算 法 的 性 能 ,我们 尝试 将 小 说 
文本 迁移 到 相反 的 风格 。 首 先 介绍 实验 设置 。 本 实验 设 定 的 概念 构成 含有 “ 慕 伤 ”、 
“严肃 ”、“ 文 艺 ” 三 个 分 量 ; 预 训练 模型 来 自 使 用 微 信 公 众 号 文章 数据 训练 的 
word2vec 模型 。 训 练 数据 来 自 对 lofter 平台 随机 抓 取 的 小 说 文本 进行 摘要 得 到 的 
关键 词 ， 并 对 关键 词 的 概念 构成 进行 人 工 标注 ， 使 用 “标记 -传播 ”算法 进行 半 
监督 训练 ， 共 进行 51 次 标记 。 


测试 1: 改写 轻 小 说 

本 节 针 对 口吻 轻松 的 轻 小 说 文本 ， 因 此 提升 其 “严肃 ”分 量 。 共 实验 五 个 段 
落 ， 前 段 为 原文 本 ， 后 段 为 改写 后 的 文本 ， 括 号 部 分 为 改写 处 。 

段落 1: 

“ 李 腾 ， 你 要 是 再 跑 ， 我 就 开 枪 了 !” 后 面 一 个 戴 着 眼镜 的 黑 农 人 一 边 喘 着 粗 气 一 边 朝 
着 前 面 那个 男孩 喊 道 。 正 在 前 面 疯 跑 的 李 腾 听 到 这 话 直接 不 居 地 “ 唾 ”了 出 来 ， 心 想 傻子 才 
束 手 就 擒 停 下 来 任 你 们 宰割 。 这 一 群 疯子 找 他 李 腾 也 不 知道 是 怎么 回 事 ,， 如 今 已 经 2021 年 ， 
居然 还 有 这 么 一 群 人 存在 ， 真 是 荐 夷 所 思 。 

“ 李 腾 ， 你 要 是 再 跑 ， 我 就 【枪杀 你 】! ”有 后面 一 个 佩戴 着 眼镜 的 黑 衣 人 一 边 【 泻 着 】 
粗 气 一 边 朝 着 前 面 那 个 【孩子 喝道 】。 正 在 前 面 【 发 疯 跑 】 的 李 腾 听 到 这 话 直接 嘲讽 地 “ 吓 ” 
出 来 ，【 心 道 】 俄 子 才 束 手 就 擒 【 停 住 】 任 你 们 【残杀 】。【 这 群 政客 】 找 他 李 腾 也 不 知 
怎么 回 事 ， 如 今 已 经 2021 年 ， 居 然 还 有 这 么 一 群 人 存在 ，【 当 真是 毛骨悚然 】。 

“ 开 枪 ”改写 为 “枪杀 ”、“ 喘 着 ”改写 为 “ 泻 着 ”、“ 喊 道 ”改写 为 “ 唱 
道 ”、“ 心 想 ” 改 写 为 “ 心 道 ”、“ 宰 制 ” 改 为 “残杀 ”、“ 真 是 菲 夷 所 思 ” 改 
写 为 “当真 是 毛骨悚然 ”,， 均 是 用 书面 化 表达 蔡 代 口语 表达 。 由 于 严肃 的 表达 往 
往 是 书面 化 的 ， 因 此 书面 化 表达 具有 和 “严肃 ” 间 的 概念 链接 :这些 改写 都 比较 
合理 。“ 疯 子 ” 蔡 换 为 “政客 ”发 生 了 语义 变化 ， 是 算法 没有 将 语义 保留 作为 约 
束 所 致 。 

段落 2: 

李 正 存 早先 不 学 无 术 为 非 作 丈 ， 后 来 遇 上 了 自己 的 师 公 李 清 源 方 被 教化 秘 依 道教 ， 此 后 
正德 修 念 ， 一 心 清净 向 学 

李 正 存 早 先 不 学 无 术 为 非 作 歹 ， 后 来 遇 到 了 自己 的 师 公 【 薛 清 源 】 方 被 【 教 诚 受 戒 佛 教 】 
此 后 正德 修 念 ， 一 心 【 上 有 具足 】 向 学 


了 
道 是 ; 


“ 李 清 源 ” 改 写 为 “ 薛 清 源 ”暗示 着 不 同姓 氏 在 认 知 上 的 微妙 差异 。 这 也 是 
为 什么 玄 约 小 说 角色 多 使 用 “ 顾 ”、“ 林 ”、“ 瑚 ”等 姓氏 而 非常 用 姓 。“ 佛 教 ” 
改写 为 “道教 ”可 能 是 因 “ 佛 教 ”处 在 热点 标记 区 域 附近 ，“ 道 教 ” 较 远 ， 因 此 
各 个 概念 分 量 强 度 都 较 弱 。 dpud 改写 为 “具足 向 学 ”可 以 被 视 为 一 种 防 


常用 语 羞涩 的 处 理 〈( 常 用 语 生 “ 严 肃 ” 分 量 上 被 传播 了 较 多 的 负 增 量 ) 。 
段落 3: 
歼 祈 不 紧 不 慢 的 跟着 ， 手 中 天 着 一 本 《谐音 学 日 语 速 成 秘籍 》。 他 虽然 重新 变 成 了 肉体 
胎 , 但 是 精神 强度 并 没有 改变 ， 所 以 学 起 东西 快 的 吓人 ， 只 要 默念 一 遍 就 能 记 下 。 他 其 至 


在 想 ， 如 果 阿 福 把 他 送 到 高 考 前 一 周 或 许 更 好 ， 他 没准 能 顺道 破 个 总 分 记录 

歼 祈 不 紧 不 慢 的 跟着 ， 手 中 央 着 【一 册 】 《谐音 学 英语 速成 秘籍 》。 他 虽然 重新 变 回 了 
肉体 凡 胎 ， 但 是 【和 神 性 稳定 性 】 并 没有 【转变 】， 所 以 学 起 东西 快 的 吓人 ， 只 要 默念 一 遍 就 
能 记 下 。 他 其 至 在 想 ， 如 果 阿 福 把 他 【 送 来 】 高 考 前 一 个 月 或 许 【更 佳 】， 他 没准 能 顺道 破 
个 总 分 记录 

“一 本 ”改写 为 “一 册 ”、“ 更 好 ”改写 为 “更 佳 ” 是 用 书面 化 表达 蔡 代 口 
语 表 达 。“ 精 神 强度 ” 改 为 “ 神 性 稳定 性 ”从 感知 上 提升 了 “严肃 ”分 量 。 

段落 4: 

上 个 时 空 他 没有 参加 学 校 组 织 的 赴 日 游学 , 和 开 了 狂暴 的 吕布 似 的 和 各 种 哮 血 怪物 生死 
相 捕 。 

上 个 【幻境 】 他 没有 参与 【学 生 】 组 织 的 赴 日 【亲子 游 】， 和 开 了 狂暴 的 【董卓 】 似 的 
和 各 种 嗜 血 【吸血 鬼 往 灭 相 捕 】。 

“生死 相 搏 ”改写 为 “ 彼 灭 相 搏 ”可 以 被 视 为 一 种 防止 常用 语 送 涩 的 处 理 
其 它 改写 均 没 有 可 被 感知 的 依据 。 

段落 5: 

禁忌 品 是 一 系列 受 群 星 污染 而 产生 诡异 效果 的 物品 总 称 , 凡是 接触 过 它 的 生物 都 会 间接 
遭 到 污染 ， 幸 运 者 觉醒 异 能 ， 不 幸 者 失控 变 成 怪物 

【总 品 】 是 【多 方面 】 遭 受 群 星 污染 而 产生 【可 怖 】 效 果 的 【产物 】 总 称 ， 凡 是 接触 过 
它 的 生物 体 都 会 间接 遭 到 污染 ， 幸 运 者 【 觉 知 恶魔 】， 不 幸 者 失控 变 成 【吸血 鬼 】 

“一 系列 ”改写 为 “多 方面 ”、“ 物 品 ” 改 写 为 “产物 ”、“ 生 物 ” 改 写 为 
“生物 体 ” 均 为 换 用 更 专业 的 术语 提升 “严肃 ”分 量 。“ 诡 异 ” 改 写 为 “可 怖 ?” 
为 换 用 书面 表达 。“ 觉 醒 异 能 ”改写 为 “ 觉 知 恶魔 ”可 以 被 视 为 防止 常用 语 羞涩 
的 处 理 ， 但 使 得 句子 发 生 了 语义 变化 。 


o 


改写 心理 小 说 

本 节 针 对 心理 小 说 文本 。 由 于 此 类 题材 一 般 进行 较为 沉重 的 自我 剖析 ， 因 此 
我 们 反 其 道 而 行 则 要 降低 其 “悲伤 ”分 量 。 共 实验 八 个 段落 ， 前 段 为 原文 本 ， 后 
段 为 改写 后 的 文本 ， 括 号 部 分 为 改写 处 。 

段落 1: 

我 开始 真正 思考 一 些 喀 远 而 抽象 的 问题 。 例 如， 离开 这 座 小 镇 要 怎么 来 车 ? 如 果 
中 的 飞机 同时 处 于 两 个 国家 ， 一 个 国家 是 秋天 ， 另 一 个 是 冬天 ， 那 么 飞机 上 是 什么 

我 开始 真正 【看 待 】 一 些 【 实 际 】 又 【具象 】 的 问题 。 例 如 ，【 回 到 】 这 座 小 镇 要 怎么 
【 坐 火 车 】? 【和 要是】 一 架空 中 的 【客机 】 同 时 处 于 【 俩 】 国 家 ， 一 个 国家 是 秋天 ， 另 一 个 
是 冬天 ， 那 么 【客机 】 上 是 什么 【时 候 】? 

这 些 改写 均 为 直接 使 用 反义词 ， 因 为 这 些 词 与 原先 词 之 间 具 有 负 相 关 性 ， 
此 在 传播 阶段 直接 被 传递 了 负 增 量 ， 符 合 使 “悲伤 ”分 量 降低 的 目标 。“ 乘 车 ” 
改写 为 “ 坐 火车 ”、“ 两 个 ”改写 为 “ 俩 ”、“ 季 节 ” 改 写 为 “时 候 ” 均 为 使 用 
更 口语 化 的 表达 。 因 为 较 强 的 书面 化 表达 往往 与 “感怀 伤 时 ”有 着 相关 性 , 反之 ， 
口语 化 表达 则 可 以 降低 “悲伤 ”分 量 。 因 此 这 些 改写 均 比 较 合 理 。 

段落 2: 

那个 十 几 岁 的 我 ， 对 于 这 种 离别 ， 理 解 得 过 于 浅薄 ， 思 考 得 又 过 于 深刻 。 

那个 十 几 岁 的 我 ， 对 于 这 种 离别 ，【 接 纳 】 得 【特别 庸俗 】，【 看 待 】 得 又 【 颇 深 】。 

“过 于 浅薄 ”改写 为 “特别 庸俗 ”、“ 思 考 ” 改 写 为 “看 待 ”、“ 过 于 深刻 ” 
改写 为 “ 颇 深 ” 均 为 使 用 书面 化 程度 更 弱 的 表达 。 

段落 3: 

当 被 一 个 粉笔 头 砸 醒 时 ,那个 瞬间 , 一 个 季节 突然 就 消失 不 见 。 我 睁 开眼 ,再 去 怎么 想 
都 只 是 听见 一 片 笑 声 。 

当 被 一 个 粉笔 尖 砸 【入 睡 】 时 ， 那 个 瞬间 ， 一 个 【时 节 】 突 然 就 【 没 了 】。 R HR], 
再 去 怎么 【打算 】， 都 只 是 听 到 一 片 【 尖 叫 声 】。 

直接 将 “ 醒 ” 使 用 反义词 改写 为 “入 睡 ” 造 成 了 逻辑 语 病 ， 通 过 加 强 检 查 联 
合 概 率 的 语言 模型 可 以 一 定 程 度 减 少 此 类 错误 。“ 消 失 不 见 ” 改 写 为 “ 没 了 ”、 
“ 睁 开眼 ”改写 为 “ 睁 眼 ”、“ 想 ”改写 为 “打算 ” 均 为 使 用 更 口语 化 的 表达 。 

段落 4: 

早上 七 点 ， 天 还 稍 凉 时 我 们 就 已 经 出 发 ， 我 们 像 是 进入 了 幻境 ， 一 个 身 着 浅 蓝 衣服 的 尼 
姑 正 在 寺庙 外 清扫 空地 。 

【 中午 六 点 钟 】， 天 还 【比较 】 凉 时 我 们 就 已 经 【到 达 】， 我 们 像 是 进入 了 【幻化 】， 
一 个 身 着 【深蓝 】 衣 服 的 尼姑 正在 【佛像 】 之 外 清扫 【 某 地 】。 


“早上 ”被 改写 为 “中 午 ” 涉 及 到 一 些 文化 知识 : "ERO. "BC SER 
备 过 渡 界 限 性 B3 的 时 间 点 常常 会 因 带 有 对 逝去 的 不 售 和 对 未 知 的 不 确定 性 而 带 
上 负面 情感 。 而 有 着 太阳 的 “中 午 ” 则 因 不 有 具备 过 渡 界 限 性 使 得 情感 较为 中 立 。 
因此 此 处 改写 是 符合 目标 的 。 但 后 面 无 论 接 “七 点 ”还 是 “六 点 钟 ” 都 会 造成 多 
辑 语 病 。“ 出 发 ”改写 为 “到 达 ” 同 样 是 因为 相 比 “出 发 ”与 “离别 ”之 间 的 概 
念 连接 “到达 ”的 情感 更 为 中 立 。“ 稍 ”改写 为 “比较 ”使 用 了 书面 化 程度 更 
弱 的 表达 ,， “空地 ”改写 为 “ 菜 地 ” 则 使 用 了 更 为 市 井 化 的 意象 ， 二 者 都 有 助 于 
降低 “悲伤 ”分 量 。 

段落 5: 

有 一 天 躺 在 凉席 上 ， 窗 户 栏 杆 上 的 贝 壹 风铃 被 吹 响 

有 一 天 【和 斜 靠 】 在 凉席 上 ，【 阳 台 雨 棚 】 上 的 贝壳 风铃 被 吹 响 

“窗户 栏杆 ”改写 为 “阳台 雨 棚 ”使 用 了 更 为 市 井 化 的 意象 , 有 助 于 降低 “ 悲 
伤 ” 分 量 。 

段落 6: 

我 学 会 了 吸烟 。 回 机 是 大 二 时 交往 过 的 一 个 学 长 ,他 说 其 实 我 们 俩 也 只 是 在 某 一 个 路 口 ， 
只 是 在 某 一 个 路 口 相 遇 ， 没 有 相同 的 过 去 ， 未 来 也 渺 范 

我 学 会 了 【抽烟 】。【 切 入 点 】 是 大 二 时 【 合 得 来 】 过 的 一 个 【同学 】， 他 【开玩笑 】 
其 实 我 们 俩 也 只 是 在 菜 一 个 【 街 口 】， 只 是 在 茶 一 个 【 街 口 相 爱 】， 没 有 【一 样 】 的 过 去 ， 
[45] emt 

“吸烟 ”改写 为 “抽烟 ”、“ 交 往 ” 改 为 “ 合 得 来 ”、“ 相 同 ” 改 写 为 “一 
样 ” 均 使 用 了 更 口语 化 的 表达 。“ 契 机 ”改写 为 “切入 点 ”、“ 路 口 ” 改 为 “ 街 
LI". “ROR” BUS "Ja" 均 使 用 了 文学 化 程度 更 弱 的 表达 。 “说 ”改写 为 “ 开 
玩笑 ”直接 使 用 “悲伤 ”分 量 为 负 的 表达 。 

段落 7: 

我 记得 初中 的 一 个 下 午 ， 我 逃课 回 家 经 过 这 里 时 ， 亲 眼目 睹 过 一 起 车 祸 现场 

我 记得 初中 的 一 个 【 周 六 】， 我 【自习 】 回 家 经 过 这 里 时 ， 亲 眼目 睹 过 一 起 【事故 】 现 
场 


“逃课 ”改写 为 “自习 ”使 用 了 相对 更 中 立 的 意象 。“ 车 祸 ” 改 写 为 “事故 ” 
减轻 了 语义 强度 。“ 周 六 ”作为 休息 日 相 比 其 它 时 间 点 “悲伤 ”分 量 更 低 。 因 此 
这 些 改写 均 比 较 合理 。 

段落 8: 

在 那 一 百 多 秒 里 ， 我 发 现 ， 原 来 什么 都 没 变 ， 无论 是 向 外 看 ， 还 是 向 内 看 ， 我 的 全 世界 
都 停止 在 这 短暂 又 漫长 的 一 百 多 秒 中 ， 而 当 绿灯 亮 起 时 ， 能 够 改变 的 却 只 有 了 我 


在 那 一 百 多 秒 【 里 头 】， 我 发 现 ， 原 来 什么 都 没 变 ，【 还 】 是 向 外 看 ， 还 是 向 内 看 ， 我 
的 全 世界 都 【中 止 】 在 这 【 欢 恰 】 又 漫长 的 一 百 多 秒 中 ， 而 当 绿 灯亮 起 时 ， 能 够 【决定 】 的 
却 只 有 我 

“里 ”改写 为 “里 头 ” 使 用 了 更 口语 化 的 表达 。“ 无 论 ” 改 写 为 “还 ”使 用 
了 文学 化 程度 更 弱 的 表达 。“ 短 暂 ” 改 写 为 “ 欢 愉 ” 直 接 使 用 “悲伤 ”分 量 为 负 
的 表达 。“ 改 变 ” 存 在 着 与 困难 的 概念 链接 ， 相 比 之 下 “决定 ”是 更 中 立 的 表达 。 


对 以 上 两 部 分 实验 改写 处 的 逐个 分 析 计 数 可 以 得 到 ， 正 确 改 写 、 错 误 改写 和 
无 可 感知 意义 的 改写 比例 为 48:3:19， 可 以 证 明 算 法 的 有 效 性 。 


本 文 提出 了 一 种 文本 分 解 算 法 用 于 分 析 文 本 的 深层 语义 , 填补 了 目前 自然 语 
言 处 理 研 究 中 对 深层 语义 、 下 意识 认 知 等 问题 研究 的 不 足 。 该 方法 不 需要 微调 复 
杂 的 神经 网 络 语言 模型 , 而 是 在 预 训练 语言 模型 所 构成 的 语义 空间 上 使 用 传统 的 
半 监 督学 习 方 法 。 这 使 得 算法 既 可 以 利用 神经 语言 模型 的 数据 优势 ， 又 可 以 稳定 
地 实现 小 样本 学 习 。 由 于 其 仅 需要 很 少 的 标注 数据 , 因此 可 以 允许 用 户 自 定义 不 
同 的 分 解 目标 ， 可 以 覆盖 很 多 不 同 领域 的 文本 表达 分 析 实 际 问题 。 

对 训练 出 的 文本 分 解 模型 反 向 使 用 该 算法 , 可 以 实现 改写 文本 , 使 得 其 表达 、 
强化 或 弱化 特定 的 情绪 分 量 〈 概 念 分 量 ) 。 相 比 目 前 的 文本 风格 迁移 研究 ， 本 文 
的 算法 具有 相当 低 的 计算 代价 ， 但 却 可 以 得 到 更 加 丰富 的 结果 。 

目前 实验 部 分 仅 使 用 了 较为 简单 的 word2vec 语言 模型 构建 语义 空间 。 如 果 
今后 使 用 嵌入 表示 与 上 下 文 相 关 的 BERT、GPT-3 等 语言 模型 ， 构 建 语义 空间 及 
空间 梯度 的 计算 代价 将 会 是 值得 关注 的 问题 .如 果 想 要 继续 保持 方法 的 效率 优势 ， 
可 能 需要 研究 一 些 相 关 数 据 结 构 与 重复 结果 利用 的 优化 方法 。 

本 文 的 方法 可 以 作为 舆情 机 器 人 、 写 作 辅 助 程序 、 心 理 咨询 辅助 程序 等 大 量 
具有 实际 价值 工具 的 内 核 。 且 本 文 方法 的 思路 并 不 只 局 限于 自然 语言 处 理 领 域 ， 
可 以 向 其 它 模 态 扩展 , 如 尝试 使 用 目标 检测 预 训练 模型 分 析 观 察 者 对 图 像 信 息 的 
下 意识 感知 。 


访问 实验 程序 


sg-first/Language-Decomposition: Natural Language Decomposition Algorithm 


for Detecting Deep Semantics (github.com) 
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